本文介绍了增强现实耳机(AR)耳机的实用响应和性能感知的开发,该耳机可帮助用户了解在真实嘈杂的回声环境中进行的对话(例如,鸡尾酒会)。人们可以使用称为快速多通道非负矩阵分解(FastMNMF)的最先进的盲源分离方法,该方法在各种环境中都可以在各种环境中效果很好。但是,其沉重的计算成本阻止了其在实时处理中的应用。相反,一种使用深神网络(DNN)来估算语音和噪声的空间信息的有监督的束形方法很容易适合实时处理,但在不匹配的条件下,性能急剧下降。鉴于这种互补特征,我们提出了一种基于基于DNN的横梁成形的双过程强大的在线语音增强方法,并通过FastMNMF引导的适应性。 FastMNMF(后端)以迷你批次样式进行,嘈杂和增强的语音对与原始的并行训练数据一起使用,用于更新方向感知的DNN(前端),并在可计算上可允许的间隔内进行反向传播。该方法与盲遗产方法一起使用,称为加权预测错误(WPE),用于抄写扬声器的嘈杂的回响语音,可以从视频中检测到,或以用户的手势或眼睛注视,以流式传输方式和空间显示。用AR技术的转录。我们的实验表明,仅使用十二分钟的观察,随着运行时间的适应,单词错误率提高了10点以上。
translated by 谷歌翻译